Day 15：多模態 AI — 文字、影像與語音的全面應用 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 15

AI & Data

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列第 15 篇

Day 15：多模態 AI — 文字、影像與語音的全面應用

17th鐵人賽

shannaa0911

2025-09-29 23:14:47

313 瀏覽

分享至

AI 不再只會「讀文字」，現在的模型能夠處理文字 (Text)、影像 (Image)、語音 (Audio)、影片 (Video)，甚至跨模態整合。這就是多模態 AI。

多模態的應用場景非常廣：

📄 智慧客服：語音輸入 → AI 轉文字 → 生成回答 → 語音輸出

🖼️ 影像分析：上傳圖片，讓 AI 自動標註物件或產生描述

🎙️ 會議助理：即時語音轉錄，再結合 LLM 摘要會議重點

📊 數據輔助：讀取文件 + 圖表，給出完整決策建議

今天我們看看 Azure AI Foundry 與 GCP Vertex AI 的多模態能力。

1️⃣ Azure AI Foundry 的多模態功能

語音 (Speech)

語音轉文字 (Speech to Text, STT)

文字轉語音 (Text to Speech, TTS)，支援多語言、情緒化語音

即時翻譯 (Real-time translation)

影像 (Vision)

圖像分析：物件偵測、人臉識別、場景分類

OCR（文字辨識）：從圖片擷取文字

與 OpenAI GPT-4V 整合 → 能看圖回答問題

文件 (Document Intelligence)

自動擷取 PDF、發票、合約資訊

節省人工輸入時間

2️⃣ GCP Vertex AI 的多模態功能

語音 (Speech AI)

Cloud Speech-to-Text：高精度語音轉文字

Cloud Text-to-Speech：自然語音輸出，支援 WaveNet 聲音

影像 (Vision AI)

AutoML Vision：自動訓練影像分類模型

Vision API：物件偵測、Logo 辨識、場景理解

Generative AI Studio：支援 Imagen 模型，生成圖片

影片 (Video AI)

Video Intelligence API：標註影片中的物件與場景

可用於內容審查或媒體管理

多模態模型

Gemini 系列模型 → 可處理文字、圖片、程式碼多模態輸入

適合進行跨領域應用（例如：圖片 + 文件 + 提問）

3️⃣ 多模態應用實例

Azure 案例

建立智慧客服：語音輸入 → Azure Speech 辨識 → GPT 回答 → Azure TTS 回覆

文件管理：PDF → Document Intelligence 抽取 → 存進資料庫

GCP 案例

圖片自動分類：用 AutoML Vision 訓練產品分類模型

行銷創意：透過 Imagen 生成廣告圖片，再搭配 Vertex AI 提供文字文案

4️⃣ 多模態帶來的挑戰

⚠️ 效能要求更高：影像與語音模型需要更多 GPU 資源
⚠️ 資料隱私：語音、影像中常含有個人資訊，需加強保護
⚠️ 多模態融合難度：如何讓不同資料類型協同處理，是一大挑戰

5️⃣ 小結

今天我們學到：

Azure AI Foundry 與 Vertex AI 都支援語音、影像、文件處理

Azure 偏重在企業流程導向（文件、客服、流程自動化）

GCP 偏重在模型創新與多模態生成（Imagen、Gemini）

多模態能讓 AI 從「對話助手」進化為「全能數位助理」

Day 14：安全性與權限控管 — 讓 AI 在企業中安全落地

Day 16：AI 開發流程 — 從資料到部署的完整旅程

系列文

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IntelliJ IDEA 右上方run箭頭反灰

IT邦幫忙

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列 第 15 篇

Day 15：多模態 AI — 文字、影像與語音的全面應用

尚未有邦友留言

標記使用者

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列第 15 篇